reward-lens: Una biblioteca de interpretabilidad mecanicista para modelos de recompensa
<meta name=description content=Biblioteca de interpretabilidad mecanicista para modelos de recompensa. Comprende el funcionamiento interno de los sistemas de recompensa en IA.>